岗位职责:
1、 负责搭建爬虫架构,开发网页数据的自动化爬取脚本程序及自动化解析脚本程序;
2、 负责清洗、分类、解析的互联网数据,规范后入库;
3、 参与大数据产品的数据库开发与产品开发;
4、 参与分指定BI模块的专题报表开发与数据挖掘工作。
任职要求:
1、 计算机、软件、电子信息等相关理工科专业,2年以上相关工作经验;
2、 熟悉python爬虫开发与分布式爬虫框架,熟悉常用的信息抓取策略、数据重组算法以及数常见的数据挖掘算法;
3、 了解Mongodb、HBase、HIVE等NoSQL数据库,并至少精通一种关系型数据库的开发;
4、 熟悉大规模网页爬取,深度网页爬取,熟悉Nutch、Scrapy、Lucene、Heritrix、Solr、Sphinx等工具优先考虑;
5、 有开源可视化开发经验或熟悉大数据架构的更加;
6、 热爱软件编程,愿意与人分享专业知识和经验。